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PROCEDE DE COMPRESSION/DECOMPRESSION DE DOCUMENTS STRUCTURES. 

Ce procede s'applique a la compression et decom- 
pression dun document structure associe a au moins un 
schema de structure arborescent (1; 31, 39, 43) definissant 
une structure du document et comprenant des elements de 
structure irnbriques, associes a un type d'information, et re- 
presentant des ensembles d'lnformations, ce procede com- 
prenant les etapes: d'analyse syntaxique (11) du schema 
de structure et la normalisation (12) de celui-ci de maniere 
a obtenir un ordre unique predefini des elements du sche- 
ma: de compilation (13) du schema normalise en vue d'ob- 
tenir des automates a etats finis (5), chaque automate 
comprenant des etats ("0". "1",..., " n ") relies entre eux par 

des transitions (" ml, " m2 " " mn ") representant respec- 

tivement les elements de la structure: et de compression 
(15) du document (2) comprenant ( execution des automa- 
tes (5) sur le document, et I'execution d'au moins un algo- 
rithme de compression (16) associe a un type 
d'informations, lorsqu'un ensemble d'inforrnations ayant ce 
type d'information est rencontre dans le document (2). 
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PROCEDE DE COMPRESSION/DECOMPRESSION DE DOCUMENTS 
STRUCTURES. 

5 La presente invention concerne un procede de compression / decompression de 
documents structures. 

Elle s'applique notamment. mais non exclusivement, a la transmission de 
documents tels que des images ou sequences damages, des donnees video ou 
10 sonores, par des reseaux de transmission de donnees numeriques, ainsi qu'au 
stockage de tels documents. 

A Theure actuelle, il existe plusieurs algorithmes de compression de document 
numerique. Certains algorithmes de compression sont confus pour traiter 
15 directement les donnees binaires du document, sans tenir compte du type de ces 
donnees. Ces algorithmes presentent l'avantage de pouvoir traiter n'importe quel 
document, m^issont peu performants (taux de compression peu eleve) pour 
traiter des documents volumineux qui sont generalement de type son ou image. 

20 On connait par ailleurs d'autres algorithmes de compression plus efficaces, mais 
specialement adapites a un type de donnees, par exemple de type image ou son, 
de sorte qu'ils ne sont pas utilisables. ou performants s f ils sont appliques a des 
documents ne contenant pas exclusivement des donnees pour lesquelles ils sont 
con9us. 

25 

Or de plus en plus, les documents utilises et circulant sur les reseaux de 
transmission de donnees contiennent plusieurs types d' informations integrees 
dans une structure. 

Un document structure est une collection ^ensembles d'informations associes 
30 chacun a un type, et composes entre eux selon des relations principalement 
hierarchiques. Ces documents emploient un langage de structuration tel que 
SGML. HTML. XML, permettant notamment de distinguer les differents 
ensembles d'informations composant le document. Par opposition, dans un 
document dit lineaire, les informations de contenu du document sont melangees 
35 aux informations de presentation et de typage. 

Ainsi, un document structure inclut des reperes de separation des differents 
ensembles d'informations du document. Dans le cas des formats SGML, XML ou 
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HTML, ces reperes appeles "balises" sont de la forme "<XXXX>" et 
n </XXXX>". le premier repere indiquant le debut de l'ensemble d'informations 
"XXXX" et le second la fin de cet ensemble. Un ensemble d'informations peut 
etre compose de plusieurs ensembles d'informations de plus bas niveau. Ainsi, un 
5 document structure presente un schema de structure hierarchique ou 
arborescente, chaque noeud representant un ensemble d'informations et etant relie 
a un noeud de niveau hierarchique superieur representant un ensemble 
d'informations qui contient les ensembles d'informations de niveau inferieur. Les 
noeuds situes en bout de branche de cette structure arborescente representent des 
10 ensembles d'informations contenant des donnees d'un type predefini, qui ne 
peuvent pas etre decomposees en sous-ensembles d'informations. 

Un document structure est generalement associe a ce qu'on appelle un schema de 
structure definissant sous la forme de regies la structure et le type d'information 
15 de chaque ensemble d'informations du document. Un schema est constitue de 
groupes imbriques de structures d'ensembles d'informations. ces groupes pouvant 
etre des sequences ordonnees, des groupes d'elements alternatifs ou des groupes 
d'elements necessaires, ordonnes ou non ordonnes. 

20 Ainsi, un document structure est associe a un schema de structure et contient des 
reperes de separation representes sous la forme de donnees textuelles ou binaires, 
ces reperes delimitant des ensembles d'informations pouvant eux-memes contenir 
d'aiutres ensembles d'informations delimites par les reperes. II en resulte qu'un 
document ainsi structure peut comprendre non seulement des donnees textuelles, 

25 mais egalement tout autre type d'information (par exemple des donnees sonores, 
des images, etc.). Par consequent les algorithmes de compression specifiques 
d'un type de donnees particulier sont peu efficaces et mal adaptes pour traiter ce 
type de documents. 

30 La presente invention a pour but de supprimer ces inconvenients. A cet effet, elle 
propose un procede pour la compression et decompression d'un document 
structure, associe a au moins un schema de structure arborescent definissant une 
structure du document et comprenant des elements de structure imbriques 
representant des ensembles d'informations, les elements de structure etant 

35 repartis en trois categories, a savoir des elements racine structures decomposes 
en groupes d'elements et en elements de base structures, ou non structures 
correspondant aux elements de plus bas niveau dans la structure, chaque element 
de base et element racine etant associe a un type d'information. j 
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Selon rinvention, ce procede est caracterise en ce qu'au moins un type 
d'information des elements de base est associe au prealable a un algorithme de 
compression adapte, le procede comprenant les etapes suivantes : 

5 

- I'analyse syntaxique du schema de structure du document et la normalisation 
de celui-ci de maniere a obtenir un ordre unique predefini des elements du 
schema, 

10 - la compilation du schema de structure normalise en vue d'obtenir un automate 
a etats finis par element racine, chaque automate comprenant des etats relies 
entre eux par des transitions representant respectivement les elements de la 
structure, et 

15 - la compression du document structure comprenant I'execution des automates a 
etats finis sur le document, et I'execution de l'algorithme de compression 
lorsqu'un ensemble d'informations ayant un type d'information associe audit 
algorithme est rencontre dans le document a compresser. 

20 Grace a la compilation du schema de structure, la structure du document est 
representee d'une maniere tres compacte, et du fait que chaque ensemble 
d'informations correspondant a un element de structure de base est associe a un 
type d'information, il peut etre traite par I'algorithme de compression le mieux 
adapte a son type. De cette maniere, si le document contient par exemple des 

25 donnees textuelles, des images, et des donnees sonores, ces donnees sont 
parfaitement reperees dans le document structure, et associees a un element de 
structure de bas niveau et un type, Au cours de Texecution des automates, ceux-ci 
vont detecter la presence d'ensembles d'informations ayant un type de base 
associe a un algorithme de compression et appeler successivement les 

30 algorithmes correspondants sur ces donnees pour obtenir des sequences 
d'informations binaires correspondantes qui sont inserees au fur et a mesure dans 
le document resultant de la compression. 

En outre, dans le cas d'une transmission de donnees, si les documents transmis 
35 presentent toujours le meme schema de structure, il n'est pas necessaire de 
transmcttre celui-ci a chaque transmission de document, d'ou un gain 
supplementaire au niveau du taux de compression obtenu grace au procede selon 
rinvention. Cette transmission est meme inutile lorsque le schema est 
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prealablement connu du destinataire du document. Par exemple s'il s'agit d'un 
document HTML, il n'est jamais besoin, meme la premiere fois de coder le 
schema du document. 

5 Par automate a etats finis, il faut comprendre un ensemble d'etats, chaque etat 
etant associe a un ensemble d'evenements d'entree et une fonction de transition 
qui determine pour chaque evenement d'entree Tensemble des etats actifs de 
l'automate. Compte tenu de cette definition, on peut imaginer de nombreuses 
representations, par exemple faisant intervenir des tables de transcodage, a raison 
10 d'une table par etat indiquant pour chaque evenement d'entree, la table 
correspondant a I'etat suivant, ou encore des tables de correspondances, a raison 
d'une table par automate ayant autant de lignes et de colonnes qu'il y a d'etats 
dans l'automate, chaque case de la table contenant la description de la transition 
entre les deux etats correspondants. 

15 

A la decompression, le schema de structure est traite de la meme fa<?on pour 
determiner les automates ayant servi a la compression et analyser le contenu du 
document compresse en vue de reconstituer un document au format d'origine 
ayant une structure au moins equivalente, sinon identique, des algorithmes de 
20 decompression correspondant aux algorithmes de compression utilises lors de la 
compression etant executes pour restituer les ensembles d'informations d'origine 
a partir des sequences d'informations binaires reperees dans le document 
compresse. 

25 Dans le cas ou le schema de structure doit etre transmis avec le document, le 
procede selon l'invention comprend avantageusement une etape de transmission 
du schema de structure qui peut etre celui d'origine, celui obtenu apres 
transformation et normalisation, ou encore celui obtenu apres compilation. 

30 Selon une particularity de l'invention. chaque ensemble d'information est repere 
dans le document compresse de maniere a permettre un acces direct a un element 
d'information particulier, sans qu'il soit necessaire de decompresser tout le 
document, ni les ensembles d'informations precedant l'ensemble a decompresser. 

35 Selon une autre particularity de l'invention, chaque element du schema de 
structure est en outre associe a un ensemble de nombres d'occurrences possibles, 
indiquant le nombre de fois qu'un ensemble d'informations ayant cet element de 
structure peut apparaitre dans l'ensemble d'informations de niveau 
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immediatement superieur auquel il appartient. 

Le procede selon l'invention peut comprendre une etape d'optimisation du 
schema de structure du document consistant a reduire le nombre de niveaux 
hierarchiques de groupes d'elements de structure. Cette optimisation permet de 
simplifier le schema de structure, mais rend le traitement de compression mois 
efficace. 

Un mode de mise en oeuvrc du procede selon l'invention sera decrit ci-apres, a 
titre d'exemple non limitatif, avec reference aux dessins annexes dans lesquels : 

La figure 1 represente sous la forme d'un schema-bloc 
l'enchainement des differentes etapes du procede selon l'invention ; 

Les figures 2a, 2b et 2c representent graphiquement un schema de 
structure sous la forme d'un arbre ; 

La figure 3 montre un schema de structure obtenu en appliquant 
une methode de reduction selon l'invention au schema de structure 
represente sur la figure 2 ; 

Les figures 4a, 4b et 4c montrent un schema de structure obtenu en 
appliquant une autre methode de reduction selon l'invention au 
schema de structure represente sur la figure 2 ; 

Les figures 5a a 5c representent respectivement trois automates a 
etats finis obtenus et utilises par le procede selon l'invention ; 

La figure 6 represente un autre automate illustrant une methode 
d'optimisation utilisee par le procede selon l'invention ; 

Les figures 7a et7b representent deux automates obtenus a l'aide du 
procede selon 1'invention a partir d'un schema de structure 
particulier ; et 

La figure 8 illustre Tapplication d'une methode de reduction aux 
automates representes sur les figures 7a et 7b. 
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La figure 1 represente l'enchainement des differentes etapes du procede selon 
I'invention. 



Ce procede est con<?u pour traiter un document structure constitue d'un schema de 
5 structure 1 definissant la structure du document et des informations structurees 2 
du document. 

Dans le langage XML Schema, un schema de structure presente par exemple la 
forme suivante : 

10 

<elemer.: name = "C n > 
<corr.plexType> 

<a-tribute name="a2" required=f alse type= ,, boolean" /> 
<a~tribute name= n al H required=true type=" integer " /> 
15 <Group order=choice> 

<element name =,, A" type="TA" minOccurs=l maxOccurs=l/> 
<element name= n B" type="TB" minOccurs=l maxOccurs=l/> 
</ 3roup> 
</cc~plexType> 
20 <elemer.:> 

Ce schema indique que Telement nomme "C" presente une structure complexe 
constitute d'un premier element nomme "a2" de type booleen qui est optionnel, 
d f un second element nomme "al" de type entier qui est toujours present dans la 
25. structure, et d'un groupe d'elements altematifs nommes "A M et "B" de types 
respectifs "TA" et "TB", Tun des ces deux elements etant present une seule fois 
dans la structure. 

Les types 'TA 1 ' et "TB" sont definis dans le schema de structure du document par 
30 une formulation analogue. 

D'une maniere generate, on utilise les groupes d'elements suivants pour definir 
une structure de document : 

35 - SEQ : qui definit une liste d'elements ordonnes qui doivent tous apparaitre 
dans le document et dans l'ordre indique, 

- CHO : qui definit un ensemble d'elements altematifs, un seul element du 
groupe devant apparaitre, 

- ET : qui definit un ensemble d'elements qui doivent tous apparaitre dans le 
40 document et dans un ordre quelconque qui ne doit pas etre modifie, 

- ET NO : qui definit un ensemble d'elements qui doivent tous etre presents dans 



>JSDCC1D: <FR 28l3743A1J_> 



2813743 

•-7- , 

le document dans un ordre quelconque qui n'a pas d'importance, et 
- ANY : qui comprend un element quelconque parmi tous les elements possibles 
que Ton peut trouver dans le document. 

5 Selon l'invention, cette formulation est analysee et transformee a l'etape 1 1 du 
procede pour obtenir des arbres syntaxiques 4, a raison d'un arbre par element de 
structure. L'arbre syntaxique correspondant a l'element de structure TC est 
symbolise par la formule suivante : 

10 TC-KCalJij & no a2^ ool} ) 1 - 1 ,(A.^ A} | B^ b} ) u ) , -« (1) 

dans laquelle : 

"— >" indique que TC est le nom donne a la structure definie apres ce symbole, 
"( )" indique les priorites avec lesquelles les groupes d'elements doivent etre 
15 lus, 

correspond a un groupe d'elements de type sequence (SEQ), 
T represente un groupe d'elements altematifs (CHO) 
"&" represente un groupe d'elements de type ET, 
"Ano" represente un groupe d'elements de type ET non ordoane, 
20 "{}" associe a un element un nom d'element de structure ou bien un type de 
base (par exemple entier ou booleen). et 
"A v y " indique que l'element A est repete de x a y fois dans le document, y 
pouvant etre egal a ,, * M representant une valeur indeterminee. 



25 Cette formulation utilise egalement le symbole $" qui represente n'importe quel 
element (ANY). 

La formule (1) peut etre representee par l'arbre represente sur la figure 2c, cet 
arbre comprenant un element racine "TC" 43 constitue d'une occurrence unique 
30 d'un groupe de type sequence 44. Ce groupe comprend une occurrence unique 
d'un groupe de type "ET" non ordonne 45 et une occurrence unique d'un groupe 
altematif 46, 

Le groupe 45 etant constitue d'une occurrence unique d'un entier nomme "al" et 
d'un booleen nomme "a2'\ et le groupe 46 comprenant une occurrence unique 
35 d'un element nomme "A" de type "TA" et d'un element "B" de type "TB". 

Les types "TA" et "TB" obtenus a l'etape 1 1 sont par exemple donnes par les 
formules suivantes : 
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TA 
TB 



W ai {im} & a4 {int} ) • ( X {TC} - Y {TC} ) ) 
( al {im}^5^ ool} ) u 



(2) 
(3) 



5 et represents par les arbres montres respectivement sur les figures 2a et 2b. 

Le type "TA" 31 comprend un groupe unique 32 de type sequence constitue de 
deux groupes uniques 33, 34, respectivement de type ET et SEQ. Le groupe 33 
comprend deux occurrences uniques de type entier, nommees respectivement 
"a3" et "a4". Le groupe 34 comprend deux occurrences uniques de type "TC" 
10 nommees respectivement "X" et "Y". 

Le type "TB" 39 est constitue d'un groupe unique 40 de type sequence 
comprenant deux booleens respectivement nommes "al" et "a5". 

Bien que dans la description qui precede, on a distingue le nom de chaque 
15 element et son type, le procede selon ['invention s'applique egalement aux 
langages de structuration qui ne font pas cette distinction. 

Par ailleurs, les elements de structure doivent etre deterministes, e'est-a-dire 
qu'un element ne doit pas pouvoir etre interprets de plusieurs manieres 

20 differentes. Par exemple, dans le schema u (a | (a , b))", dans le cas oil "a" 
apparait. on ne sait pas si "b" doit apparaitre ensuite. II existe a cet effet des 
algorithmes qui peuvent etre appliques par le procede selon Tinvention pour 
transformer un schema non deterministe en un schema deterministe. On peut par 
exemple se referer aux documents ["Regular expressions into finite automata 11 

25 Briiggemann-Klein, Anne, Extended Abstract in I. Simon, Hrsg., LATIN 1992, 
S. 97-98. Springer- Verlag, Berlin 1992. Full Version in Theoretical Computer 
Science 120: 197-213, 1993]. Ainsi, le schema ci-avant peut par exemple etre 
remplace par M (a , b° ')". 

30 A I'etape 12 suivante du procede selon Tinvention, les elements du schema de 
structure transformes en arbres syntaxiques peuvent tout d'abord subir un 
traitement de reduction ou de simplification. 

Ce traitement de reduction consiste a effectuer un aplatissement global en 
35 generant un seul arbre syntaxique 51 a partir de tous les arbres 3L 39 et 43, 
comme cela est represents sur la figure 3. 

Cet arbre represente en fait un dictionnairc de tous les types d'elements 
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susceptibles d'etre rencontres dans le document, ces elements etant rassembles 
dans un groupe 52 de type alternatif apparaissant au moins une fois (1..*) dans le 
document. Dans cet arbre, les elements de type complexe "A", M B'\ "X" et M Y" 
sont associes a un type "ANY", et Telement "al" qui apparaissait deux fois (dans 
5 les elements "TB" et "TC") avec des types differents, est associe a un type par 
defaut "pcdata" selon le langage XML ou au type de l'element dans le document 
initial, par exemple texte. Un meme ensemble deformations peut en effet etre 
represents de plusieurs manieres : par exemple une sequence binaire peut 
egalement etre consideree comme une chaine de caracteres ou un nombre entier. 

10 

Alternativement, ce traitement de reduction consiste a aplatir localement les 
arbres syntaxiques pour obtenir les arbres represents 31\ 39' et 43* sur les 
figures 4a a 4c. 

15 Dans chacune de ces figures, les groupes 32 a 34 (figure 2a), 40 (figure 2b) et 44 
a 46 (figure 2c) onl ete respectivement remplaces par un groupe 53, 54, 55 de 
type alternative apparaissant au moins une fois (1..*). 

Les arbres "TA", "TB" et "TC" peuvent en outre subir un traitement 
20 supplemental pour supprimer les ambiguites apparaissant dans le schema de 
structure. 

A l'etape 12, les arbres "TA", "TB" et "TC" subissent egalement un traitement de 
normalisation qui consiste a reordonner le schema de maniere a obtenir un ordre 
25 unique des elements du schema. Ce traitement affecte un numero binaire aux 
differents nceuds des arbres syntaxiques obtenus a la suite des traitements 
precedents. Ce numero est utilise lors de la compression de V element 
correspondant. 

30 Ce traitement de normalisation consiste a attribuer a chaque groupe une signature 
constitute de la concatenation du nom du groupe avec la signature de tous les 
elements et des sous-groupes du groupe, prealablement ordonnes. Ainsi, le 
groupe 53 sur la figure 4 est associe a la signature "CHO.a3.a4.X.Y" (ou 
"|a3.a4.X.Y"). 

35 

Pour ce traitement de normalisation, on considere que les groupes ordonnes 
(SEQ) sont deja normalises. Les groupes a normaliser sont done les groupes de 
type alternatif ("CHO"), et les groupes "ET" et "ET N0 ". Ce traitement comprend 
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les etapes suivantes pour chaque groupe G compose de sous-groupes g { et 
d'elements e s : 

- la normalisation des sous-groupes gj eventuels du groupe G avant de 
5 normal iser le groupe G, I'algorithme de normalisation etant recursif, 

- le rangement des elements e; eventuels du groupe G avant les sous-groupes gj, 

- le rangement des elements e; dans un ordre predefini, 

- le rangement des sous-groupes gj dans l'ordre predefini, et 

- la determination de la signature du groupe G donnee par la concatenation de 
10 toutes les signatures de ses composants (elements et sous-groupes) suivant 

l'ordre etabli a la suite des etapes precedentes. 

L'ordre predefini de rangement des composants du groupe peut etre l'ordre 
alphanumerique de leurs signatures respectives, ou l'ordre decroissant de leur 
15 nombre minimal d'occurrences. les composants ayant le meme nombre minimal 
d'occurrences etant ensuite ranges par ordre alphanumerique. 

II est a noter que ce traitement de normalisation n'est pas necessaire dans le 
procede selon I'invention. L'ordre d'apparition des composants dans le schema 
20 pcui en effet etre conserve. 

L'etape 13 suivante du procede consiste a generer des automates a etats finis 5. 
Ce traitement consiste a generer pour chaque arbre syntaxique un ensemble 
d'automates de base, a raison d'un automate par groupe de l'arbre syntaxique, puis 
25 a combiner ces automates de base. 

Sur la figure 5a, l'automate d'un groupe sequentiel (SEQ) de n elements de 
signatures ml, m2. mn, de niveau hierarchique immediatement inferieur 
comprend n+2 etats numerotes de 0 a n+1 symbolises sur la figure par des 
30 cerclcs, chaque noeud etant relie a son successeur par une transition symbolisee 
par un arc correspondant a un element du groupe et appele par la signature de 
Tclement. la derniere transition F (vers Tetat n^l) marquant la fin du groupe. 

Sur la figure 5b, Tautomate d'un groupe de type alternative (CHO) de n elements 

35 de signatures ml, m2 mn, de niveau hierarchique immediatement inferieur 

comprend un etat initial numerote "0" et n etats finaux numerotes de 1 a n, l'etat 0 
etant relie aux etats finaux 1 a n respectivement par n transitions correspondant 
respectivement aux n elements du groupe. 
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Sur la figure 5c, Tautomate d'un groupe ET de n elements de signatures ml, m2, 
mn, de niveau hierarchique immediatement inferieur comprend 
l+n+n*(n-l)+n*(n-l)*(n-2)+-«-+n! etats representant toutes les combinaisons 
5 possibles des n elements. 

Un tel automate peut etre genere par un algorithme simple tel que celui qui suit : 

E est 1' ensemble des composants possibles du groupe 
10 Executez Fonction_l ( E, e:at initial) 

Fonction_l (E, etat e) : 

Repetez tant que E n' est pas vide 

Selectionnez un element mi de E et le retirez de E 
15 Creez un etat e' et un arc joignant e a e' note mi 

Dupliquez E en E' 

Executez f onct ion_l (£' , etat e' ) 
Fin repetez 

20 L'automate d'un groupe ET NO de n elements de signatures ml, m2, mn, de 
niveau hierarchique immediatement inferieur peut etre celui d'un SEQ des lors 
que Ton accepte de perdre I'information concernant l'ordre d'apparition des 
elements dans le groupe ou qu'il est fixe. 

25 Ces automates (cas des groupes de type CHO, ET et ET NO ) peuvent etre 
optimises en appliquant un traitement d'evitement des elements optiormels, c'est- 
a-dire dont l'ensemble des occurrences possibles est de la forme (0..k). Cette 
regie reflete le fait que chaque element associe a un nombre d'occurrences 
minimal nul n'est pas forcement code. 

30 Comme represente sur la figure 6, ce traitement consiste a raj outer une transition 
entre l'etat "1" situe immediatement en amont d'un element optionnel "2" et tous 
les etats "3" immediatement situes en aval de cet element, cette nouvelle 
transition etant associee a la signature "m3" de Telement correspondant a Tetat ou 
elle aboutit. 

35 Si Tun des etats situes immediatement en aval est egalement associe a un element 
optionnel, il faut prevoir egalement une transition vers tous les etats situes 
immediatement en aval de cet etat. 

Ce traitement peut etre effectue par Palgorithme suivant : 

40 

Soit Z le sous-ensemble des noeuds de 1' automate dont 
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1' element associe a une * occur rence minimale nulle. 

Repetez (tant que 1' automate est modifie par la procedure 
suivante) : 
5 Pour chaque element X de Z : 

Pour chaque transition entrante TEx de X : 
Pour chaque transition sortante TSx de X : 

1 . Creez une nouvelle transition N reliant le nceud 
source de la transition TEx et le noeud destination de 

10 la transition TSx. La transition est marquee par la 

valeur de l'arc TSx 

2. Si une transition identique n'existe pas deja dans le 
graphe, la rajouter au graphe 

Fin pour 
15 Fin pour 

Fin pour 
Fin repetez 

II est a noter que les automates ainsi generes pour un schema de structure sont 
20 imbriques dans les autres. En effet. dans les automates correspondant a I'exemple 
de schema represents sur la figure 2. lorsque le type TC (elements X et Y) est 
rencontre dans l'automate correspondant au type TA 31, l'automate correspondant 
au type TC 43 est entierement execute avant de poursuivre l'execution de 
l'automate correspondant au type TA. 

25 

L'etape 14 suivante du procede selon I'invention consiste a reduire et transformer 
les automates obtenus precedemment. 

On peut ainsi fusionner des automates d'un meme arbre syntaxique (et non des 
automates d'arbres differents qui s'appellent les uns les autres) de la maniere 
30 expliquee en reference avec les figures 7a et 7b. 

Ces figures representent les automates qui ont ete generes conformement au 
procede selon Tinvention a partir de l'element de structure (a® \(b\ \ b 2 )° *). Le 
premier automate (figure 7a) correspond au groupe SEQ (",")» tandis que le 

35 second automate (figure 7b) correspond au groupe alternatif ("I"). 

Au cours de l'execution de ces automates, I'arrivee a Tetat 2 dans le premier 
automate entraine l'execution du second l'automate et rarrivee a Tetat final 1 ou 2 
dans le second automate est suivi de la poursuite de l'execution du premier 
automate, c'est-a-dire de l'execution de la transition F entre Tetat 2 et Tetat final 3 

40 du premier automate. 

Le traitement de fusion des deux automates permet d'obtenir l'automate 
represenie sur la figure 8, dans lequel chaque alternative du groupe CHO est 
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representee par une transition associee a la signature M cho.bl.b2 M du groupe, 
concatenee avec la signature "bl", "b2" de l'elernent du groupe figurant dans 
Talternative choisie. 

5 Au cours de cette etape 14, les automates peuvent egalement subir un traitement 
de minimisation du nombre d'etats, par exemple en appliquant l'algorithme de 
Hopcroft, puis un traitement de normalisation pour obtenir des automates 
normalises 6. 

10 A Tissue de ce traitement, les transitions au depart de chaque noeud sont 
numerotees de 0 a n. 

L'etape suivante 15 consiste a relire le document 2 a compresser les donnees qu'il 
contient en executant les automates sur la structure du document, en vue d'obtenir 

15 une succession de sequences binaires dans lesquelles on trouve la valeur 
compressee de chaque element ou ensemble d'in formations de base du document. 
Selon un premier type de codage, ces sequences binaires sont de la forme 
(K.N.V,..V N ) C pour chaque element ou groupe d'elements e, N etant le nombre 
d'occurrences de l'elernent e ou le nombre d'ensembles d'informations successifs 

20 correspondant a Telement e, K etant le numero de la transition ay ant permis 
d'atteindre l'elernent e, et V,..V N les valeurs respectives, eventuellement 
compressees des N occurrences de l'elernent e. Si e est un groupe d'elements, sa 
valeur V est decomposee en autant de sequences binaires (K.N.V) qu'il contient 
d'elements. Toutefois, dans certains cas, N peut etre omis, notamment lorsque ce 

25 nombre est fixe. II en est de meme de K dans le cas ou il n*y a qu'un seul arc en 
provenance d'un etat, par exemple dans un groupe de type sequence. 

Au prealable, on peut realiser un entete general du document compresse qui 
regroupe plusieurs parametres codes, utiles a la description du document. Ainsi, 
30 un tel entete peut comprendre une signature du ou des schemas de structure 
utilises, et un ensemble de parametres decrivant le codage utilise, comme par 
exemple : 

- un parametre indiquant si le codage de la longueur de chaque element est 
35 obligatoire ou optionnel ou non present dans le document, 

- un parametre indiquant si les elements peuvent ou non etre sous-types, c'est-a- 
dire associes a un type plus precis que leur type de base, et 

- un parametre indiquant le type de codage utilise pour le nombre d^ccurrences. 
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Chaque element d' information du document peut egalement etre associe a un 
entete, sa presence et sa nature etant precises dans Tentete du document. 
L'entete d'un element peut ainsi comprendre la longueur codee de celui-ci, de 
5 maniere a permertre, lors de la decompression du document, l'acces a un element 
particulier sans decompresser tous les elements precedents dans le document. Les 
entetes d'elements sont inseres dans le document par exemple juste avant le 
codage de la valeur des elements. 

10 D'une maniere generate, la compression du document consiste a lire 
sequentiellement le document, en executant les automates du schema, ce qui 
permet en outre de verifier que la structure du document correspond au schema 
compile. 

15 Au cours de ce traitement. on code le nombre d'occurrences de chaque element 
apparaissant dans Je document. A cet effet, on applique les regies suivantes. 

Dans le cas oil le nombre d'occurrences d'un element e est defini par (i..j), on 
distingue les cas suivants : 
20 Si j est different de et i est different de 0, le codage est decompose en deux 
parties, a savoir (i..i) et (O.j-i), la premiere partie n'est pas codee car cette 
formulation specifie que i occurrences sont necessaires. La seconde partie est 
codee sur jlog^(j-i-^ 1 )| bits. 

25 Si j est different de "*" et i est egal a 0, le codage du nombre d'occurrences est 
effectue entre 1 et j, soit sur |log 2 (j)i bits, car si ce codage est necessaire, cela 
signifie qu'il y a au moins un element e dans le document. 

Si j est egal a "*", on utilise une technique de codage telle que ASN1 selon 
30 laquelle le premier octet indique sur combien d'octets le codage est effectue, et 
les octets suivants contiennent la valeur du nombre d'occurrences. On peut aussi 
utiliser le bit de poids fort de chaque octet pour indiquer s'il est ou non le dernier 
octet de codage du nombre d'occurrences, les sept bits suivants de chaque octet 
servant a coder le nombre d'occurrences. 

35 

Alternativement, on peut choisir un autre type de codage dans lequel il n'est pas 
necessaire d'introduire le nombre d'occurrences des elements d'un schema de 
structure. Selon ce type de codage. on introduit un type appele "echappement" ou 
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"esc" qui indique l'etat final des automates. II est done necessaire d'appliquer au 
prealable une transformation aux automates obtenus precedemment. 
Cette transformation consiste a ajouter a chaque etat des automates une transition 
de retour vers l'etat precedent et ajouter une transition "esc" vers un etat final, 
5 marquant la fin de ('execution de l'automate. Le codage des elements n'est alors 
plus que de la forme (KV), le codage d'un automate se terminant par le numero 
K^ sc de la transition "esc". 

En fait, ce type de codage n'est interessant que pour le codage de formes 
10 complexes et pour des elements n'ayant pas de nombre d'occurrences maximal. II 
est en particulier tout a fait adapte au codage de groupes de type altematif 
comprenant un nombre d'elernents different de 2 P , p etant un nombre entier. 
Ce type de codage peut etre combine avec le precedent. II suffit alors pour cela, 
de I'indiquer dans I'entete du document compresse et d'attribuer un bit aux 
15 endroits du codage ou doivent se trouver un nombre d'occurrences. 

Selon l'invention. au moins un type de base des ensembles d'informations du 
document est associe a un module externe de compression 16. De cette maniere, 
lors de la lecture du document, les types respectifs des ensembles d'informations 

20 rencontres sont analyses, et lorsqu'un type d'ensemble d'informations est associe 
a un module externe de compression 16, celui-ci est applique au contenu de 
l'ensemble d'information et le resultat de la compression insere dans le document 
compresse en tant que valeur de l'ensemble de d'information correspondant. 
Les modules externes de compression peuvent par exemple appliquer la norme 

25 "mp3" pour les informations sonores, "jpeg" pour les images et "MPEG 1" ou 
"MPEG 2" pour les donnees de type video. 

Si aucun module de compression n'est associe a un type d'ensemble 
d'informations, on peut utiliser un module de compression par defaut ou 
30 recuperer les ensembles d'informations ayant ce type tels qu'ils apparaissent dans 
le document initial. 

Si dans I'entete du document, il est indique que le codage de la longueur est 
optionnel ou obligatoire, les elements sont associes a un entete dans le document 
35 compresse. contenant la longueur en nombre de bits de la valeur de l'element 
Cette particularite permet un acces direct a un element du document compresse 
sans avoir a decompresser les elements situes avant dans le document, en lisant a 
l'aide des automates uniquement les longueurs respectives de ces elements 
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La longueur des elements peut etre codee de la maniere suivante. 
Dans le cas oil dans Pentete du document, il est indique que le codage de la 
5 longueur des elements est obligatoire, la longueur L des elements en nombre de 
bits est calculee a Taide la formule suivante : 

L = 8*p+h (4) 

10 oil p represente le nombre d'octets (en codage ASN1 ou utilisant les bits de poids 
fort de chaque octet utilise pour coder ce nombre) utilises pour coder la longueur 
de Telement, et h represente le nombre de bits restants de cette longueur (h < 8). 

II est a noter que le module exteme de compression 16 qui est appele pour 
15 effectuer le codage de la valeur d'un element peut fournir en retour cette 
longueur. 

Dans le cas ou le codage de la longueur des elements n'est pas obligatoire, la 
valeur du premier bit correspondant a la valeur de Telement indique si les bits 
20 suivants representent ou non la longueur de relement. 

Si les elements peuvent etre sous-types (indique dans Tentete du document), les 
nouveaux types eventuels sont inseres dans un entete d'element place dans le 
document compresse juste avant la valeur de Telement. Le premier bit indique si 
25 le type de Telement est different ou non du type attendu. Dans le premier cas, les 
bits suivants dans Tentete de Telement contiennent le code du nouveau type, ce 
code etant determine en numerotant tous les sous-types possibles du type de base 
de Telement. cette numerotation etant donnee par le codage de la structure du 
document. 

30 

D'une maniere plus precise, le codage d'un document est effectue en trois etapes 
principales. 

A la premiere etape, on numerote les arcs sortants de chaque noeud. Cette etape 
est facultative s'il n'y a qu'un seul arc au depart du noeud. S f il van arcs sortants, 
35 on associe a chacun de ces arcs un numero donne par Tordre des arcs attribue lors 
de la normalisation (etape 14). Ce numero est code sur n' bits, n 1 etant tel que 
2 n '" 1 <n < 2 n '. 

Ainsi, si n transitions sont issues de Tetat E, chaque transition sera codee sur 
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|log 2 (n-l)| +1 bits. 

A la seconde etape. on code le nombre d'occurrences de chaque sous-automate 
comme decrit ci-avant. 

5 

A la troisieme etape, on code le sous-automate. Ce traitement peut etre formule 
par 1'algorithme suivant : 

Se placer en debut d' automate, 
10 Tant que 1'etat actif n'est pas final 

On code l'arc que 1' on traverse, s'il y a lieu 
On code le nombre n d'occurrences s'il y a lieu 
On se deplace dans le sous-automate correspondant 
au nceud atteint, 
15 On code n fois ce sous automate. 

On se replace dans 1' automate initial. 
Fin tant que. 

Par exemple, pour le codage de I'occurrence "a 2 a 3 aj ai a 3 " de l'automate 
20 (ai | a 2 | as/ 0 "\ il y a trois arcs sortants. La numerotation des arcs est done 
effectuee sur deux bits. Par consequent, le resultat du codage est le suivant dans 
le cas ou Ton code le nombre d'occurrences : 

0000 0101 01 V a2 10 V aJ 00 V a/ 00 W aI 10 V oi 

25 

dans lequel "0000 0101" represente la valeur binaire du nombre d'occurrences 
soit 5, et V ah V a2 et V a3 sont respectivement les valeurs des occurrences de al, a2 
et a3. 

30 Dans le cas ou Ton ne code pas le nombre d'occurrences : 

01 V„, 10 W a3 00 V a/ 00 V a/ 10 V a3 1 1 

1 1 correspondant au numero de la transition de sortie "esc". 

35 

Dans Texemple des figures 7a, 7b, le codage de Toccurrence "b 2 bi ai" de 
Tautomate (a\° \(b } \ b 2 )° *) aboutit au resultat suivant (cas ou les etats ne sont 
pas fusionnes) : 

40 0000 0010 nombre d'occurrences de la sequence (ici 2 fois) 
1 codage de Tare "cho.b] .b 2 M 
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1 

0 

5 V hx 
0 

0000 0001 
V oX 

1 

10 

Dans le cas ou les etats sont fusionnes (figure 8) : 





0000 0010 


nombre d'occurrences de la sequence 




10 


codage de Tare "cho.bj b 2 - b 2 " 


15 


0000 0010 


nombre d'occurrences du groupe "cho.bl.b2" 




v b2 


codage de la valeur de b 2 . 




0 


codage de l'arc b\ dans le groupe "cho.bl.b2" 




Vh\ 


codage de la valeur de b\. 




00 


codage de l'arc a\ 


20 


0000 0001 


nombre d'occurrences de a x . 




v aX 


codage de la valeur de a t . 




10 


codage de l'arc de sortie F 



II peut etre necessaire d'effectuer un re-ordonnancement de I'automate, 
25 notamment si le schema a ete interprets et reordonne de maniere a optimiser le 
codage dans le cas du groupe ET N0 - 

Si l'ordre des attributs n'est pas utile (comme dans le langage XML), on peut 
effectuer un codage qui reordonne les attributs des elements dans un ordre 
predetermine, par exemple suivant un ordre alphanumerique, puis suivant le fait 
30 qu'ils sont requis ou non. Cette disposition permet dc reduire d'autant la taille de 
la description compressee. 

Le traitement de decompression d'un document ainsi obtenu est effectue en 
executant les etapes 1 1 a 15 sur le schema de structure du document pour obtenir 

35 les automates, puis en executant l'etape 1 5' de decodage ou de decompression du 
document, cette etape consistant a parcourir le document compresse en executant 
les automates obtenus a la suite des etapes 1 1 a 14, de maniere a pouvoir 
determiner le type et le nom des elements d'information compresses rencontres 
dans le document. Les valeurs des elements qui ont ete obtenues a Taide de 

40 modules 16 de compression externes sont decompresses a l'aide de modules de 
decompression 16 1 correspondants. 
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nombre d'occurrences "du groupe "cho.bl.b2" (ici 2 fois). 
codage de Tare b 2 dans le groupe ,, cho.bl.b2" 
codage de la valeur de b 2 . 
codage de Tare b x dans le groupe "cho.bl.b2 n 
codage de la valeur de b x . 
codage de Tare a x 
nombre d'occurrences de a x 
codage de la valeur de a x . 
codage de Tare de sortie F 
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II est a noter que si Ton doit traiter (compresser ou decompressed plusieurs 
documents ayant le meme schema de structure, les etapes 11 a 15 ne sont 
executees qu'une seule fois, seules les etapes 15 et 16 (ou 15' et 16') devant etre 
appliquees a chaque document a traiter. 
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REVINDICATIONS 

1. Procede pour la compression et decompression d'un document 
structure, associe a au moins un schema de structure arborescent (1 ; 31, 39, 43) 

5 definissant une structure du document et comprenant des elements de structure 
(32. 33. 34, 40, 44, 45, 46, a3, a4, X, Y, al, a5, al, a2, A, B) imbriques, 
represcntant des ensembles d'informations du document, les elements de 
structure etant repartis en trois categories, a savoir des elements racine structures 
(31. 39, 43), des groupes d'elements (32, 33, 34, 40, 44, 45, 46), et des elements 
10 de base structures (X, Y, A, B), ou non structures (a3, a4, al, a5, al, a2) 
correspondant aux elements de plus bas niveau dans la structure, chaque element 
de base etant associe a un type d'information, 

caracterise en ce qu'au moins un type d'information des elements de base est 
associe au prealable a un algorithme de compression (16) adapte, le procede 
1 5 comprenant les etapes suivantes : 

- I'analyse syntaxique (1 1) du schema de structure du document, 

- la compilation (13) du schema de structure normalise en vue d'obtenir un 
automate a etats finis (5) par element racine, chaque automate comprenant des 
etats ("0", 'T\ "n") relies entre eux par des transitions ("ml, n m2 M , 

20 "mn") representant respectivement les elements de la structure, et 

- la compression (15) du document structure (2) a compresser comprenant 
^execution des automates a etats finis (5) sur le document, et l'execution de 
l'algorithme de compression (16) lorsqu'un ensemble d' informations ayant un 
type d'information associe audit algorithme est rencontre dans le document 

25 structure (2). 

2. Procede selon la revendication 1 , 

caracterise en ce que, en vue de la decompression du document compresse (10), 
il comprend l'execution des etapes (11, 12, 13) pour determiner les automates (5) 

30 ayant servi a la compression a partir du schema de structure (1), l'execution (15') 
des automates (5) sur le document compresse (10) pour analyser le contenu de 
celui-ci, en vue de reconstituer un document au format d'origine ayant une 
structure au moins equivalente, des algorithmes de decompression (16') 
correspondant aux algorithmes de compression (16) utilises lors de la 

35 compression (15) etant executes pour restituer les ensembles d'informations du 
document structure (2) d'origine a partir de sequences d'informations binaires 
reperees dans le document compresse durant l'execution des automates. 
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^21 - . 

3. Procede selon la revendication 1 ou 2, 

caracterise en ce que dans le cas ou le schema de structure (1) doit etre transmis 
avec le document, le procede selon l'invention comprend une etape de 
transmission du schema de structure (5). 

5 

4. Procede selon Tune des revendications 1 a 3, 

caracterise en ce qu'il comprend une etape de normalisation (12) du schema de 
structure (5) du document de maniere a obtenir un ordre unique predefini des 
elements du schema. 

10 

5. Procede selon Tune des revendications 1 a 4, 

caracterise en ce que chaque ensemble deformation est repere dans le document 
compresse, de maniere a permettre Faeces direct a un ensemble d'informations 
particulier, sans qu'il soit necessaire de decompresser les ensembles 
1 5 d'informations precedant l'ensemble a decompresser. 

6. Procede selon Tune des revendications 1 a 5, 

caracterise en ce que chaque element du schema de structure est en outre associe 
a un ensemble de nombres d'occurrences possibles, indiquant le nombre de fois 
20 qu'un ensemble d'informations ayant cet element de structure peut apparaitre 
dans l'ensemble d'informations de niveau immediatement superieur auquel il 
appartient. 



7. Procede selon Tune des revendications 1 a 6, 
25 caracterise en ce qu'il comprend une etape d'optimisation du schema de structure 
du document consistant a reduire le nombre de niveaux hierarchiques de groupes 
d'elements de structure. 



8. Procede selon Tune des revendications 1 a 7, 
30 caracterise en cc que le document compresse (10) comprend pour chaque 
ensemble d'informations du document d'origine, un numero de transition 
correspondant a Telement de structure associe a l'ensemble d'informations et la 
valeur binaire de l'ensemble d'informations compresse. 

35 9. Procede selon la revendication 8, 

caracterise en ce que dans le document compresse (10), chaque element de 
structure d'au moins une partie des elements de structure du schema de structure 
est associe a un nombre d'occurrences d'ensembles d'informations dans le 
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document. 

10. Procede selon la revendication 8 ou 9, 
caracterise en ce que dans le document compresse (10), la fin d'un groupe de 
plusieurs occurrences d'ensembles d'infonmations de meme type est marquee par 
une sequence binaire representant un numero de transition vers un etat final. 
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Abstract (Basic) : FR 2813743 Al 

NOVELTY - The compression and decompression of a document 
structure 

associated with a tree structure (1) has an embedded document 
structure 

carrying document information made up of root elements, base 
structured 

and non structured. One type base element information is associated 

by 

a compression algorithm (16) adapted to the processing. The 
structure 

is compiled (13) to obtain an automated finished state (5) using 

the 

root elements with states connected by transitions. The compression 

is 

associated with the type of information found in the document. 

USE - Process of compression and decompression of document 
structures. 

ADVANTAGE - Provides efficient compression techniques where the 
documents contain digital sound bits and image bits. 

DESCRIPTION OF DRAWING (S) - The figure shows a block diagram of 

the 

steps in compression 
tree structure (1) 
compression algorithms (16) 
automated finished state (5) 
compiled structure (13) 
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